查看原文
其他

Science | 利用《结构域百科全书》探索蛋白宇宙的结构多样性

王彤彤 北京生物结构前沿研究中心
2024-11-26

星标,再也不怕错过更新!方法见文末动图。


AlphaFold的横空出世,对生医药各领域的影响无疑是变革性的1。高效地整合并利用AFDB (AlphaFold Database) 中超2亿的蛋白质结构,是一件挑战与机遇并存的工作。诸多研究团队纷纷投入数据金山的挖掘之中,在过去一年,我们也与大家分享了许多这方面精彩的工作,如:(文章链接:详见:Science|AlphaFold2结构指导前瞻性配体发现Cell | 蛋白寡聚之美:利用结构预测揭示寡聚的普遍性和重要性Nature | 挖掘结构生物学的新金山:用Foldseek Cluster发现AFDB的隐藏宝藏Nature | 埃博拉病毒RNA聚合酶如何玩转基因组RNA复制)

单个蛋白可以由多个结构域组成,这些结构域作为独立折叠的单元,对于理解蛋白的功能和进化至关重要。AFDB庞大的规模使得我们很难准确对这些结构域进行识别和分类,因此导致研究者对这些数据的利用受到限制。


2024年11月1日,来自伦敦大学学院 (University College London)David T. Jones团队在Science上发表了题为Exploring structural diversity across the protein universe with The Encyclopedia of Domains的科研论文。通过深度学习算法,研究者对AFDB中的结构域进行检测和分了,并生成了一套“结构域百科全书 (The Encyclopedia of Domains, TED)”。在这项研究中,研究者共检测到3.65亿个结构域,覆盖了100多万不同的类群,其中77%的非冗余结构域与已知的超家族相似。此外,研究者还揭示了1万多种超家族间新的相互作用和数千种新的蛋白折叠形式。



在本研究中,研究者对整个AFDB中的结构域组成进行了全面分析,结构域的识别主要通过Merizo2、Chainsaw3和Unidoc4这3种算法实现 (图1A, i-ii)。通过这一流程,研究者在AFDB中确定了一共3.65亿个TED结构域,比Pfam5等基于序列的工具所能鉴定的多了约1亿个。在输出结果 (TED-100) 中,单结构域蛋白与多结构域蛋白之间的比例约为42:55,只有约2.8%的蛋白缺乏可识别的结构域。


图1. TED的整体工作流程


通过MMseqs26对3.24亿个结构域进行聚类,并与CATH7代表性的结构域进行比较,研究者进一步得到了具有50%序列一致性 (sequence identity) 和90%最小覆盖率 (minimal coverage) 的~1.21亿个聚类簇。同时,研究者通过Foldseek8和Merizo-search搜索与TED-100相匹配的CATH结构域,TED-100中有1.94亿个结构域被分配到了CATH的H (Homologous superfamily) 标签,460万个结构域被分配到了T (Topology) 标签,通过与CATH PDB的HMM库进行比对,这些标签的有效性得到了验证 (图1, iii)。77%的TED-100结构域与已知的CATH超家族相似,表明TED的结构域覆盖率对CATH起到了扩展作用,能够识别出之前未被基于序列的方法检测到的结构域。


为了进一步了解这些折叠方式在AFDB中的分布,研究者利用CATH层级对TED的组成进行了分析 (图2)。分析发现,约61%的折叠方式是3个生物域所共享的,表明它们在细胞功能中扮演重要作用,而一些特定的折叠方式 (18.5%) 只存在于2个生物域中,个别折叠方式只在特定的生物域存在 (0.5%只存在于古细菌,9%仅存在于真核生物,11%只存在于细菌中)。此外,TED还识别出了许多在CATH中未能被充分表征的超家族,如参与药物外排的AcrB。基于Gene3D9的分析,AcrB的孔道结构域主要存在于细菌中,偶尔也在古细菌和真核生物中存在,然而,TED额外鉴定了能够具备该结构域的18种古细菌、1,315种细菌和284种真核生物,其中可能隐藏着某种进化关系。


图2. 使用CATH层级对TED结构域进行分类


通过TED的工作流程,研究者识别了4,100万个无法与CATH超家族关联的序列簇,通过对这些序列簇进行分析,发现许多此前未知的折叠形式。研究者对具有内部对称性的结构域进行了单独的处理,以WD40结构域为例,其本质上是由重复的结构域单元组成的。通过使用SymD程序计算Z score,研究者将Z score>9的簇聚类成了6,433个具有高度对称性的新折叠簇,在其中发现了一些前所未见的架构 (图3)。这些发现不仅扩展了已知的折叠空间,还为研究蛋白质的进化和功能提供了新的机会。


图3. 一些具有高度对称性的结构域

在本研究中,研究者最终识别出7,427个假定的、新的结构域。那么,这些新的结构域是否能够被注释以特定的功能呢?通过基于序列的深度学习模型,研究者对GO术语进行了预测,发现其中1,321个(约18%)的新折叠结构域能够被高置信度地分配到与分子功能相关的GO术语当中。以GO术语预测中可能具有锌结合位点的结构域为例,当对这些结构域进行分析时,位点中通常包含两个半胱氨酸、两个组氨酸残基以及具有核酸结合能力的α螺旋 (图4E, i);此外,一些被预测具有血红素结合能力的结构域中,能够观察到经典的血红素结合基序,整个结构域中含有1个或多个血红素结合位点 (图4E, ii)。


图4. TED中发现的新型结构域簇


TED中包含了共2,720万个结构域间的相互作用,这些相互作用进一步被分类成13,771个相互作用超家族对 (interacting superfamily pair, ISP)。相比之下,CATH数据库中仅有约196,234个相互作用的实例, 表明TED在识别和记录结构域相互作用方面具有更大的潜力 (图5A, B)。大多数ISP在TED和CATH中互作的几何形状相似,然而,约5.4%的ISP在TED中显示出更高的几何多样性。TED还识别出许多新的相互作用,特别是在超家族之间的交互作用网络中,许多超家族在TED中被提升为“枢纽”状态,因为它们能够与更多其他超家族相互作用 (图5D)。这些发现为理解蛋白质结构域之间的相互作用提供了新的视角,并为未来研究蛋白质功能和进化提供了重要的数据基础。


图5. 相互作用超家族对 (interacting superfamily pair, ISP)


综上,本研究通过对AFDB中的超2亿个蛋白结构的分析,对3.65亿个结构域进行了系统性的识别和分类。TED利用深度学习和结构比较,显著提高了对远缘同源性和新颖结构域的检测能力,发现了超过1亿个传统的、基于序列的方法未能识别的结构域。研究还揭示了1万多个超家族之间的新结构相互作用,并识别出数千中新折叠,扩展了已知的折叠空间。TED的分析为理解蛋白质的结构、功能和进化提供了新的视角。本文研究者称,在未来,TED将不断进行更新,以适配更新版本的AFDB,并为药物发现和蛋白进化提供分析的基础。



原文链接 

https://doi.org/10.1126/science.adq4946



参考文献

1. M. Varadiet al., AlphaFold Protein Structure Database: Massivelyexpanding the structural coverage of protein-sequence spacewith high-accuracy models.Nucleic Acids Res.50, D439–D444 (2022).

2. A. M. Lau, S. M. Kandathil, D. T. Jones, Merizo: A rapid andaccurate protein domain segmentation method using invariantpoint attention.Nat. Commun.14, 8445 (2023). 

3. J. Wells, A. Hawkins-Hooker, N. Bordin, B. Paige, C. Orengo,bioRxiv (2023) p. 2023.07.19.549732.

4. K. Zhu, H. Su, Z. Peng, J. Yang, A unified approach toprotein domain parsing with inter-residue distance matrix.Bioinformatics39, btad070 (2023). 

5. A. Batemanet al., The Pfam protein families database.NucleicAcids Res.30, 276–280 (2002). 

6. M. Steinegger, J. Söding, MMseqs2 enables sensitive proteinsequence searching for the analysis of massive data sets.Nat.Biotechnol.35, 1026–1028 (2017).

7. I. Sillitoeet al., CATH: Increased structural coverage offunctional space.Nucleic Acids Res.49, D266–D273 (2021).

8. M. van Kempenet al., Fast and accurate proteinstructure search with Foldseek.Nat. Biotechnol.42,243–246 (2024).

9. Leeset al., Gene3D: A domain-based resource forcomparative genomics, functional annotation and proteinnetwork analysis.Nucleic Acids Res.


供稿 | 王彤彤

责编 | 囡囡

设计 / 排版 | 可洲 


特别提示

微信公众号又双叒叕更改推送机制了,不是星标的订阅号,收到推送内容的时间会有延迟,甚至根本无法收到最新推送!不想错过FRCBS最新资讯,快来设为星标吧!

方法超简单,只需3秒钟!


精彩回顾

精彩回顾


点击上方卡片

关注我们吧


THE END

我知道你“在看”

继续滑动看下一个
北京生物结构前沿研究中心
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存